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摘 
一 种 简单 有 效 的 新 方法 (ORDP)。 然后, 模 
阵 错误 率 (M) .项 目 质量 (1q) 和 属性 层级 结构 ， 
知识 状态 服从 均匀 分 布 时 , ORDP 方法 在 所 有 
表现 没有 明显 
及 均匀 分 布 时 的 修 
分 数 减法 数据 的 修 
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CZŁ H 


引言 


2020 年 6 月 ,中 共 中 央 国 务 院 发 布 的 《深化 新 
时 代 教 育 评价 改革 总 体 方法 》 中 明确 提出 "改革 学 
生 评价 , 创新 德 智 体 美 劳 过 程 性 评价 办 法 ”的 发 展 
Hs. npUL, 教育 评价 越 来 越 强 调 过 程 性 评价 。 认 


1 


结果 ; (3) NL M Iq 和 属性 层级 结构 对 4 种 方法 的 表现 均 有 明显 影响 ; (4) Ji 


要 Q 和 矩阵 的 正确 性 是 影响 题目 参数 估计 和 被 试 分 类 准确 性 的 重要 因素 。 针 对 Q 矩阵 修正 问题 ,首先 提出 了 
以 研究 通过 改变 被 试 知识 状态 的 分 布 、 样 本 容量 (N)、 测 验 长 度 (L)、Q HE 
比较 了 ORDP 与 
层级 结构 下 最 优 ， 当 知识 状态 服从 多 元 正 态 分 布 时 , RMSEA 和 ORDP 
差异 ， 除 独立 结构 外 , RMSEA 方 法 均 稍 优 于 ORDP 方法 ; (2) 各 方法 在 多 元 正 态 分 布下 的 修正 效果 不 


已 有 方法 (R、RMSEA 和 HD) 的 表现 ,研究 表明 :(1) 当 


于 Tatsuoka (1984) 


结果 表明 , 采用 ORDP 方法 修正 的 Q 矩阵 与 数据 拟 合 最 优 。 
认 知 诊断 , Q 矩阵 修正 , ORDP 方法 , DINA 模型 


误差 并 降低 被 试 诊断 正确 率 (Rupp & Templin, 2008; 
de la Torre, 2009; 涂 冬 波 等 , 2012)。Q 和 矩阵 标定 的 
准确 性 和 复杂 性 影响 着 认 知 诊断 评估 在 实践 中 的 
应 用 和 发 展 (DeCarlo，2011)。 于 是 , 检验 Q 和 矩阵 的 
正确 性 ， 并 对 其 进行 修正 具有 重要 意义 。 

针对 Q@ 和 矩阵 估计 或 修正 问题 ,研究 者 们 从 不 同 


知 诊断 理论 (cognitive diagnostic theory，CDT) 运 用 
认 知 心理 学 知识 分 析 考 生 的 认 知 过 程 、 加 工 技 能 和 
知识 结构 ， 并 结合 现代 测量 学 知识 进行 诊断 分 析 ， 
能 够 提供 细 粒 度 、 多 维度 的 评 佑 结果， 适应“ 过程 性 
评价 ”的 要 求 ， 具 有 重要 研究 与 实践 价值 。 

Q 矩阵 表征 了 项 目 与 属性 的 关系 , 是 CDT 的 
基础 ， 也 体现 了 CDT 与 项 目 反 应 理论 (item response 
theory,，IRT) 和 经 典 测量 理论 (classical test theory, 
CTT) 的 不 同 。 事 实 上 , Q 矩阵 通常 由 领域 专家 标定 
或 通过 参数 估计 而 得 。 前 者 不 仅 容易 受到 主观 因素 
的 影响 ,还 大 大 增加 了 测验 开发 的 成 本 和 专家 工作 
Ht; 后 者 仅仅 依据 数据 分 析 ， 又 缺少 专家 对 项 目 特 
征 的 分 析 , 往往 不 符合 实际 情况 。 有 研究 表明 ， 即 
使 Q 和 矩阵 的 元 素 存 在 少量 错误 也 会 增 大 参数 估计 
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视角 提出 了 多 种 方法 。 例 如 ， 基 于 最 优 项 目 区 分 度 
视角 提出 了 65 法 (de la Torre, 2008)、y 法 ( 涂 冬 波 等 ， 
2012) 和 法 (de la Torre & Chiu, 2016) 等 。 它 们 的 
核心 思想 是 选择 具有 最 优 项 目 区 分 度 或 属性 区 分 
度 的 属性 模式 作为 项 目 q 向量。 这 类 方法 简单 易 懂 ， 
计算 也 比较 简便 。 其 中 ，5 方法 只 考虑 了 项 目 区 分 
两 个 极端 被 试 组 的 能 力 ， 不 能 反映 全 体 被 试 的 信息 ; 
全 方法 虽 反映 全 体 被 试 的 信息 ,但 对 样本 量 的 要 
求 较 高 ( 汪 大 勋 等 ,2019); 7 方法 提出 了 先 筛选 再 
修正 的 思路 ,但 容易 漏 掉 参数 合理 但 有 误 的 项 目 。 

又 如 ， 基 于 参数 估计 视角 提出 了 极 大 似 然 估 计 
(maximum likelihood estimation, MLE), 边际 极 大 似 
然 估 计 (marginal maximum likelihood estimation, 
MMLE) (Wang, Song, et al.，2018) 和 贝 叶 斯 估计 
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(Chung, 2019; Chen et al., 2018; DeCarlo, 2012)77 
法 。 它 们 都 是 常用 的 参数 估计 方法 。 其 中 , MLE 和 
MMLE 采用 EM 算法 对 Q 和 矩阵 进行 重复 修正 , 修正 
率 较 高 但 比较 耗 时 ， 而 基于 贝 叶 斯 的 方法 过 程 复杂 
且 易 受 先 验 分 布 的 影响 。 再 如 ， 从 模型 与 数据 的 绝 
对 拟 合 视 角 提 出 了 S 统计 量 (Liu et al., 2012) 和 残 差 
(Chen, 2017) 等 多 种 方法 。 其 中 , S 统计 量 方法 表达 
了 正确 作答 项 目 与 项 目 对 的 观察 概率 分 布 和 预测 
概率 分 布 的 欧 氏 距离 ， 而 残 差 方法 基于 项 目 对 的 观 
察 反 应 和 预测 反应 构建 了 相关 或 对 数 比 的 残 差 , 但 
它们 的 计算 均 较 为 繁琐 。 

综 上 ， 上 述 方法 各 有 优势 与 不 足 。 特 别 地 ， 大 
部 分 模型 数据 拟 合 方法 都 视 观 察 反应 (概率 ) 分 布 和 
预测 反应 (概率 ) 分 布 为 两 个 独立 的 分 布 , 通过 建构 
反映 二 者 的 一 致 性 或 差异 性 指标 来 修正 Q 和 矩阵。 本 
研究 基于 观察 反应 和 预测 反应 将 作答 反应 分 为 4 个 
类 别 ， 构 建 了 一 种 简单 高 效 且 适用 于 简化 模型 和 饱 
和 模型 的 Q 和 矩阵 修正 方法 。 然 后 ,开展 Monte Carlo 
模拟 实验 ,在 多 种 实验 条 件 下 比较 新 方法 与 近似 误 
差 均 方 根 (root mean square error of approximation, 
RMSEA) (Kang et al.，2019) 、 残 差 指标 (residual- 
based statistic, R) (Yu & Cheng，2020) 和 海 明 距 离 
(hamming distance, HD) 方 法 ( 汪 大 勋 等 , 2018) 在 Q 
矩阵 修正 中 的 表现 。 最 后 ， 以 Tatsuoka (1984) 的 分 
数 减法 数据 为 例 ， 考 察 各 方法 对 专家 标定 的 Q@ 和 矩阵 
的 修正 情况 和 修正 后 模型 数据 的 拟 合 情 况 。 

为 行文 方便 , 下 文 以 i 、j 和 z 分 别 表示 被 试 、 
H H PID H a REIME N, K, L, MA Iqa 
表示 被 试 人 数 、 测 验 考察 的 属性 个 数 、 测 验 长 度 、Q 
和 矩阵 错误 率 和 项 目 质量 。w(l =1,2,…,2”) 和 gj.(c= 
4,2,…,2* —1) 分别 表示 可 能 的 知识 状态 (knowledge 
states, KS) 和 属性 考察 模式 。 yy 与 wj 分别 表示 被 试 
i 在 项 目 j 上 的 观察 反应 和 理想 反应 。 论 文 第 二 部 
分 介绍 了 新 方法 、R、RMSEA 和 HD Wik, 第 三 和 
第 四 部 分 分 别 是 模拟 数据 和 实测 数据 的 研究 设计 
与 结果 分 析 ， 第 五 部 分 是 结论 和 讨论 。 


2 Q 和 矩阵 修正 方法 


Q 矩阵 与 模型 数据 拟 合 有 着 密切 联系 。 理 论 上 ， 
正确 的 q 向 量 应 该 使 模型 数据 拟 合 最 优 。 基 于 绝对 
拟 合 指标 或 相对 拟 合 指标 可 以 判断 模型 与 数据 的 
拟 合 程度 。 其 中 ,绝对 拟 合 指标 的 方法 的 核心 在 于 
构建 反映 观察 反应 和 预测 反应 的 差异 性 或 一 致 性 
指标 。 本 研究 结合 观察 反应 和 预测 反应 将 作答 反应 


细 分 为 4 个 类 别 , 并 根据 各 个 类 别 预测 人 数 比例 分 
布 提 出 一 种 基于 模型 数据 拟 合 视角 的 Q EIE 
方法 : 最 优 反应 分 布 纯度 (optimization of response 
distribution purity, ORDP) 方 法 。 
2.1 ORDP 方法 

经 典 决策 树 是 基于 某 种 划分 准则 ,不断 将 数据 
集 划 分 为 纯度 更 高 ,不 确定 性 更 小 的 子 集 的 算法 。 
而 基尼 系数 作为 经 典 决 策 树 中 最 优 特征 的 选择 指 
T, 表示 从 数据 集中 随机 抽取 的 两 个 样本 所 属 类 别 
不 一 样 的 概率 ,， 反映 了 数据 集 的 纯度 。 其 值 越 小 ， 
数据 集 的 纯度 越 高 。 例 如 , 假设 离散 型 随机 变量 所 
有 可 能 的 取 值 为 h(h=4,2,…, 瑟 )， 对 应 的 概率 记 为 


H H 
已， 则 基尼 系数 为 : Gini = 》 P7 B) -1- M P; . 
h=1 h=1 


根据 被 试 在 项 目 j 上 的 反应 , 可 令 KS Ha, 
(1=4,2,…,2*) 的 总 人 数 和 a 中 答对 项 目 j 的 人 数 
分 别 为 N, 和 方 。 再 根据 认 知 诊断 模型 (Cognitive 
diagnosis model, CDM), 可 得 KS 为 w 的 被 试 预测 
正确 作答 项 目 j 的 概率 为 P(y; =1] a). IBA, TE nj 
名 观察 反应 为 1 的 被 试 中 预测 有 .P(y; 21| a1) A 
被 试 正 确 作 答 和 (1-P(y; =1lw)) 名 被 试 错误 作 
答 。 它 们 的 人 数 比例 分 别 为 frag =y PO; =1|a)/ 
N 和 fiao 2nj-Q-P(y; =1@)))/N, o HE, 在 
Ni 一 nj 名 观察 反应 为 0 的 被 试 中 预测 有 (Vi — n) 
P(y; =1lw) 名 被 试 正 确 作 答 和 (Ni nj) (L- Py; = 
la) 名 被 试 错 误 作 答 。 它 们 的 人 数 比 例 分 别 为 
fio. =(N, - nj): P(y; =1|a,)/ N, 和 fyo,0) = (Ni —n): 
(1-P(y; =1|@))/N,。 于 是 , 结合 a 类 被 试 在 项 目 
j 上 的 观察 反应 和 预测 反应 ， 可 以 将 反应 分 为 
(OLED ~ (O1,E0) 、(00,ED 和 (00,E0) 四 个 类 别 ， 
其 人 数 比例 分 布 如 表 1 所 示 。 例 如 ，(OL ED 表示 a, 
类 被 试 在 项 目 j 上 观察 反应 和 预测 反应 均 为 1 的 被 
试 反应 类 别 。 值 得 注意 的 是 ， 预 测 反应 不 同 于 理想 
反应 。 前 者 指 依据 CDM 计算 而 得 的 每 个 被 试 预测 
反应 为 1 和 0 的 可 能 性 。 后 者 指 在 无 失误 无 猜测 的 
条 件 下 ， 当 被 试 掌 握 了 正确 作答 项 目 所 要 求 的 属性 
时 ， 则 其 理想 反应 为 1， 和 否则 为 0。 依据 观察 反应 和 
预测 反应 ,每 一 类 KS 的 被 试 就 被 分 到 如 表 1 所 示 
的 4 种 反应 类 别 。 


表 1 w' 类 被 试 在 项 目 上 4 种 反应 类 别 的 人 数 比例 分 布 
反应 类 别 


(O1,E1) (O1,E0) (OO0,E1) (O0, E0) 


期 望 人 数 比例 fja.» fija. fijo» fico.o) 


根据 基尼 系数 的 定义 , 可 计算 联合 观察 与 预测 反 
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应 的 人 数 比例 分 布 的 基尼 系数 ， 即 Gini, = fia 0.— 
fia.) * fiia Q0. fiia) * fijo O fito) * fii t- fioo) ° 
Gini, 代表 a, 类 被 试 4 种 反应 类 别 的 纯度 。 其 值 越 
小 ,表明 随机 抽取 的 两 个 KS 为 w 的 被 试 所 属 不 同 
反应 类 别 的 概率 越 小 。 在 无 失误 无 猜测 的 条 件 下 ， 
被 试 w 的 理想 反应 为 1 或 0。 若 被 试 w 的 理想 反应 
为 1 且 q 向 量 正确 时 ， 则 观察 反应 为 1 的 被 试 中 预 
测 反应 为 1 的 人 数 比例 也 越 高 ， 即 期 望 fri 
fion > fyon 和 方 ao 越 小 ,4 种 反应 类 别 的 纯度 越 
高 ; 当 被 试 w 的 理想 反应 为 0 且 q 向 量 正确 时 ， 则 
观察 反应 为 0 的 被 试 中 预测 反应 为 0 的 人 数 比例 也 
越 高 ， 即 期 望 fog BX, fians fyon 和 fjao ER 
小 ,4 种 反应 类 别 的 纯度 也 越 高 。 因 此 ， 正确 q 向 量 
对 应 的 基尼 系数 应 该 越 小 。 由 表 1 易 知 yay > 
fian > fron 和 方 oo 均 大 于 等 于 0， 且 至 少 有 一 个 
KF 0, BI Gini, 的 值 恒 大 于 0。 

实际 上 , 被 试 总 体 来 自 多 种 KS， 要 使 得 每 一 种 
KS 的 Gini, 最 小 ， 就 等 价 于 要 求 所 有 KS 的 基尼 系 


2 
数 的 和 取 最 小 。 于 是 ,本 研究 提出 选择 使 > Gini, 
I=1 


最 小 的 q 向 量 作为 项 目 j BU PERSON TIS, PRN 
ORDP 方法 。 

该 方法 适用 于 所 有 CDM. 以 决定 性 输入 、 噪 音 
与 门 模型 (deterministic input, noisy and gate model, 


2K 
DINA) (de la Torre, 2009) f], XF $ Gini, 的 计算 


i=l 
过 程 进 行 详细 说 明 。 
首先 ,在 无 失误 无 猜测 的 情况 下 将 KS 分 为 两 
JE. 理想 反应 为 1 的 KS 类 ww (u =1,2,---,U) 和 理想 
反应 为 0 的 KS 类 aunv(v=12…V)。 令 sy 与 gg AK 
AH jP c 种 可 能 属性 模式 时 的 失误 和 猜测 参 
数 。 那 么 ， 对 于 理想 反应 为 1 的 被 试 类 a, (BI 


K 
[ [v =D, A Po; 211) 21-5, ; 而 对 于 理想 
k=1 


K 
反应 为 0 的 被 试 类 mw， (OT [alt =0), utr PO; = 
k=1 


1|a,) 7 94, © 

其 次 ， 假 设 知识 状态 为 aj 的 被 试 有 Nu 名 ,其 
中 观察 反应 为 1 和 0 的 人 数 分 别 为 nj, 和 Ni, 一 nj。 
TE, 该 类 被 试 4 个 反应 类 别 的 人 数 比例 分 布 如 表 
2 所 示 。 

BBA, 理想 反应 为 1 的 所 有 被 试 类 的 人 数 比 例 
分 布 的 基尼 系数 可 化 简 为 


U 

$ Gini, = 

u=1 
c 2 Tiu $ Thu 
20-425, 25.) ea ag | 415 
ü= 


lu lu 


同样 ， 对 于 知识 状态 为 ay, 的 被 试 ， 可 令 Nw 和 
ry 分 别 代表 总 人 数 和 答对 项 目 j 的 人 数 。 于 是 , 该 
类 被 试 4 个 反应 类 别 的 人 数 比 例 分 布 如 表 3 所 示 。 

ABA, 理想 反应 为 0 的 所 有 被 试 类 的 人 数 比例 
分 布 的 基尼 系数 为 


V 
ini, = 
v=1 
TAFTI tof fm) 9 tw 2 
2 0-029, ~294,.)]1+2| | -22- | @) 


v=1 lv lv 


最 后 ，DINA 模型 下 被 试 总 体 在 项 目 j 上 的 最 


U V 
优 反应 分 布 纯度 为 ORDP= V Gini, + S Ginis, . 
u=1 v=l 
再 以 实际 数据 为 例 说 明 具 体 计 算 过 程 。 为 方便 
计算 , 假设 K = 2， 则 被 试 的 KS 有 4 种 , 分 别 是 
a =(1,1) 、ow -(L0) , æ =(0,1) Fla, = (0,0) 。 假设 
每 一 种 KS 均 有 100 人 ,其 中 观察 反应 为 1 的 人 数 
ANA n -80, r-60. n -40 和 =20。 候选 qj。 有 3 
fh, NÉ qq =(D . gy -(,0) F q =(0,1) 。 假 设 
所 有 候选 gj 的 项 目 参 数 均 为 s=0.1 M g 70.2. 


表 2 被 试 a 在 项 目 j/ 上 4 种 反应 类 别 的 人 数 比 例 分 布 


反应 类 别 (O1, E1) (O1, E0) (O0, E1) (O0, E0) 
期 望 人 数 比例 li — Sa) -> Nu- a (-s,,) (Nu = = “Sy, 
表 3 Hite, EME jE 4i K aR A Bibe D 3 tH 
反应 类 别 (O1, E1) (O1, E0) (O0, E1) (O0, E0) 
期 望 人 数 比例 ei Tj, — 9,.) (Ny — — (Ni, —— 4-9, ) 
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VA a, — (,1) Fil a, = (1,0) 类 被 试 为 例 。 当 9 = 
(L1) Hf, a, = (1) 类 被 试 的 理想 反应 为 1 根据 表 2 
可 得 (OLED 、(OL E0) (OO, ET) Fil (00, E0) 这 4 类 
反应 的 人 数 比 例 依次 为 80x(1-0.1))/100=0.72，(80x 
0.1)/100=0.08, ((100—80)x(1—0.1))/100-0.18 和 ((100- 
80)x0.1)/100=0.02。 于 是 a, = (L1) 类 被 试 的 基尼 系 
数 为 Gini =0.72x(1-0.72)+0.08x(1-0.08)+0.18x(1- 
0.18)+0.02x(1-0.02)1=0.444, ^4 qi - (LI) Hj, a, = 
(1,0) 类 被 试 的 理想 反应 为 0， 根 据 表 3 可 得 这 4 类 
反应 的 人 数 比 例 分 别 为 (60x0.2)/100=0.12，(60x(1- 
0.2))/100=0.48, ((100-60)x0.2)/100=0.08 和 ((100-60)x 
(1-0.2))/100=0.32。 于 是 a; = (1, 0) 类 被 试 的 基尼 系 
BH Gini, -0.12x(1-0.12)*0.48x(1-0.48)*0.08x(1— 
0.08)+0.32x(1—-0.32)=0.648. 

以 此 类 推 ,可 计算 出 Gini, 和 Gini, 的 值 ， 将 
Gini, 到 Gini, 的 值 相 加 便 得 到 当 gq = (4,D 时 ,被 试 
总 体 的 基尼 系数 为 ORDP, =0.285。 同 理 可 得 q, = 
(1,0) 和 qs = (0,7) 时 被 试 总 体 在 项 目 j 上 的 最 优 反 
应 分 布 纯度 ,具体 如 表 4 所 示 。 

从 表 4 可 知 ，ORDP, 的 值 最 小 ,于 是 项 目 j 的 
正确 qg 向 量 应 为 (0.D 。 罗 芬 等 人 (2020) 曾 将 基尼 系 
数 用 于 双 目 标 CD-CAT 选 题 策略 。 具 体 而 言 ， 他 们 
根据 当前 已 作答 的 项 目 和 待 施 测 下 一 个 项 目的 预 
测 反 应 获得 被 试 KS 的 后 验 分 布 , 通过 使 预测 的 KS 
后 验 分 布 的 纯度 越 高 即 该 分 布 的 基尼 系数 越 小 为 
被 试 选择 下 一 个 项 目 。 本 研究 针对 被 试 在 项 目 j 上 
的 4 个 反应 类 别 建立 了 人 数 比 例 分 布 的 基尼 系数 ， 
通过 最 优 该 分 布 的 纯度 来 进行 q 向 量 的 修正 ， 是 合 
理 的 和 可 行 的 。 


2.2 ”基于 模型 数据 拟 合 的 已 有 0 和 矩阵 修正 方法 

为 了 考察 新 方法 的 表现 ， 研 究 选 择 将 ORDP 与 
R, RMSEA 和 HD 方法 进行 比较 。 原因 如 下 : 第 一 ， 
它们 都 属于 数据 绝对 拟 合 指 标 。 其 中 , ORDP、R、 
RMSEA. S 统计 量 和 残 差 方法 是 基于 模型 数据 拟 合 
视角 的 绝对 拟 合 指标 ; HD 方法 是 基于 统计 视角 的 
非 参 数 绝对 拟 合 指标 。 特 别 地 , R、RMSEA 和 HD 
方法 的 计算 比较 简单 。 第 二 , 方法 间 的 比较 不 够 。 
目前 , 仅 Yu 和 Cheng (2020) 比 较 了 R 和 S 统计 量 
方法 。 他 们 的 结果 表明 R 方法 在 DINA 模型 下 的 修 
正 效 果 优 于 S 统计 量 方法 。 下 面 对 R, RMSEA 和 
HD 方法 依次 进行 简单 介绍 。 

首先 , Yu 和 Cheng (2020) 基 于 观察 反应 与 理想 
反应 的 残 差 y; — n; 提出 加 权 的 残 差 统 计量 指标 R, 
见 (3) 式 ， 


N 2 
` yi — ij 
Sy Yo) zt 21 "d 


i=l 
其 中 ，P(y; |w) 表示 被 试 w HA j 上 的 正确 作答 
概率 。 

HX, Kang 等 人 (2019) 将 近似 误差 均 方 根 
RMSEA 用 于 计算 被 试 总 体 观察 作答 概率 分 布 与 期 
望 作答 概率 分 布 的 差异 ， 即 

2 
E 


1 2K 
RMSEA, - [ES wail Po, =z|a)- 3 
z=0 1=1 ! 
HB, ny, 表示 NI 中 在 项 目 j 上 得 z 分 的 人 数 ; 
w(w) 表示 总 体 中 a, 的 后 验 概率 , 根据 KS 的 先 验 


分 布 和 w 类 被 试 反 应 的 似 然 计算 而 得 。 本 文 假设 
KS 服从 均匀 分 布 。 


表 4 被 试 总 体 在 项 目 j 不 同 候选 g 向 量 下 的 基尼 系数 
候选 q 向 量 KS (O1, E1) (O1, E0) (O0, E1) (O0, E0) Gini ORDP 
a=(1,1) 0.202 0.074 0.148 0.020 0.444 
a57(1,0) 0.106 0.250 0.074 0.218 0.648 
m=(1,1) 2.285 
a3=(0,1) 0.074 0.218 0.106 0.259 0.657 
a47(0,0) 0.038 0.134 0.134 0.230 0.536 
a=(1,1) 0.202 0.074 0.148 0.020 0.444 
a57(1,0) 0.248 0.056 0.230 0.038 0.572 
427(1,0) 2.209 
a3=(0,1) 0.074 0.218 0.106 0.259 0.657 
a47(0,0) 0.038 0.134 0.134 0.230 0.536 
a,7(1,1) 0.202 0.074 0.148 0.020 0.444 
a=(1,0) 0.106 0.250 0.074 0.218 0.648 
437(0,1) 2.196 
a3=(0,1) 0.230 0.038 0.248 0.056 0.572 
a47(0,0) 0.038 0.134 0.134 0.230 0.536 
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最 后 ,， 海 明 距 离 是 一 种 非 参 数 方法 ( 汪 大 勋 等 ， 
2018)。 它 通过 最 小 化 全 体 被 试 在 项 目 j 上 观察 反应 


N 
向 量 和 理想 反应 向 量 的 距离 》 y -mc RATT Q 
i-i 


矩阵， 可 用 于 修正 Q 矩阵。 
2.3 ”0 矩阵 修正 的 步骤 

令 初始 Q EEH Q o Q 和 矩 阵 修正 的 具体 算法 
如 下 : 

第 一 ， 对 于 待 修 正 的 项 目 j, 仅 将 Q? 中 项 目 j 
的 初始 q 向 量 替换 为 茶 种 可 能 的 属性 模式 gj.， 得 
Bl Qh; 

第 二 ， 基 于 Qi 和 作答 数据 , 使 用 EM 算法 (de 
la Torre, 2009) 佑 计 q je 下 对 应 的 项 目 参 数 Son > Gay. 
和 被 试 KS; 

第 三 , 计算 项 目 j 在 候选 gj 下 的 ORDP、R、 
RMSEA zk HD 的 值 ; 

第 四 ,重复 步骤 一 至 步 又 三 ， 计 算 项 目 j 在 所 
有 候选 q 向 量 下 的 ORDP、R、RMSEA 或 HD 的 值 ; 

BA, MGA j 的 C 种 可 能 的 属性 模式 中 选择 
使 ORDP、R、RMSEA 或 HD 最 小 的 gj 作为 项 目 j 
的 q 问 量 ; 

第 六 ,重复 上 述 步 台 ,直到 修正 完 所 有 L 个 项 
A, 算法 停止 。 


3 模拟 研究 : ORDP、R、RMSEA 
和 HD 法 在 Q ER IE PAY EEEX 


3.1 ”研究 目的 
为 在 复杂 测验 条 件 下 验证 和 比较 ORDP, R, 

RMESA 和 HD 方法 在 Q 符 阵 修正 中 的 表现 ， 研 究 
考虑 了 6 个 实验 变量 。 具体 包括 : 两 种 KS 分 布 ( 均 
匀 分 布 和 多 元 正 态 分 布 )、 两 种 被 试 人 数 (N = 300, 
1000)、 两 种 测验 长 度 (L = 20, 30)、 两 种 Q 矩阵 错 
误 率 (M = 20%, 40%)、 两 种 项 目 质量 (高 低 Iq WE 
数 取 值 范围 分 别 为 [0.05，0.25] 和 [0.05，0.4]) 和 4 种 
属性 层级 结构 (独立 型 ， 直 线 型 ， 收 敛 型 和 分 支 型 )。 
属性 层级 结构 见 图 1。 


(D (D © 

(2) 

d GO GO a @ 

(4) (4) 

© O © &aoqoooc 
(a) 直线 型 (b) 收敛 型 (c) 分 支 型 (d) 独立 型 


图 1 五 个 属性 的 4 种 层级 结构 图 


3.2 ”数据 模拟 方法 
3.2.1 O 和 矩阵 的 生成 

采用 蔡 艳 等 人 (2013) 的 方法 生成 真实 Q FEM, 
即 要 求 测验 Q@ 和 矩阵 至 少 包含 一 个 1 个 R 阵 ， 剩余 项 
目的 gq 向 量 在 所 有 可 能 的 属性 考察 模式 ( 依 属性 层 
级 结构 的 不 同 而 不 同 ) 中 随机 生成 。 

在 真实 Q 矩阵 的 基础 上 按 项 目 错误 率 随机 确 
定 相应 比例 的 项 目 。 然 后 ， 针 对 每 个 项 目 从 所 有 可 
能 的 属性 考察 模式 (本 喘 除 外 ) 中 随机 选择 一 种 作为 
该 项 目的 错误 g 向量 ， 从 而 可 得 错误 Q 和 矩阵。 这 种 
方式 产生 的 错误 g9 向 量 包 括 了 属性 元 余 、 缺 失 或 两 
者 兼 有 的 情况 ， 符 合 实 际 情况 。 事 实 上， 如果 QE 
阵 错误 率 高 达 40%, 一 般 建议 重新 标定 Q 和 矩阵。 而 
在 模拟 实验 中 , 设置 高 错误 率 的 Q@ 和 矩阵 更 能 考察 方 
法 的 效能 。 

3.2.2 Mit KS 和 项 目 参 数 的 生成 

无 论 KS 服从 均匀 分 布 还 是 多 元 正 态 分 布 ， 被 
试 均 从 所 有 可 能 KS 的 分 布 中 随机 产生 。 不同 的 是 ， 
各 种 KS 的 比例 因 分 布 的 不 同 而 不 同 . 具 体 而 言 ， 当 
KS 服从 均匀 分 布 (uniform distribution), dETA A 
体 中 各 种 可 能 的 KS 的 比例 相同 (Wang, Song, et al., 
2018); 当 KS 服从 多 元 正 态 分 布 (multidimensional 
normal distribution) 时 ， 首 先 参考 已 有 研究 假设 属 
性 间 的 相关 为 0.5 (Chen, 2017; Kang et al., 2019; 
Wang et al., 2020)， 然 后 根据 Liu 等 人 (2021) 的 研究 ， 
通过 模拟 可 获得 不 同 层级 结构 下 被 试 总 体 中 各 类 
KS 的 比例 。 

DINA 模型 的 失误 s 和 猜测 g 参数 均 服 从 均匀 
分 布 。 其 中 ， 高 质量 项 目的 s 和 9 参数 从 区 间 (0.05， 
0.25) 中 随机 产生 ， 低 质量 项 目的 s 和 9 参数 则 从 区 
间 (0.05, 0.4) 中 随机 产生 。 

3.23 ”作答 反应 的 生成 

基于 真实 Q FEM. TEX KS 和 项 目 参数 , 采用 
DINA 模型 计算 被 试 i 正确 作答 项 目 j ER P, 
并 与 随机 数 S; 比较 。 MMAR PAF SS, Deui EM 
目 j 上 的 反应 为 1， 否则 为 0。 

3.3 ”评价 指标 

为 考察 不 同方 法 对 Q 矩阵 修正 率 、 项 目 参 数 返 
真 率 和 KS 估计 的 影响 ,采用 以 下 5 种 评价 指标 : 
(1) q 问 量 被 完全 判 准 的 比例 ,简称 模式 判 准 率 
(pattern match ratio, PMR); (2) 正确 属性 被 保留 的 
比例 (true positive rate, TPR); (3) 错误 属性 被 修改 
正确 的 比例 (false positive rate, FPR); (4) 基于 修正 
Q 德 阵 的 参数 估计 值 s 和 9 的 近似 误差 均 方 根 的 均 
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值 ( 记 为 ME。); (5) 由 修正 Q 算 阵 得 到 的 被 试 KS 
的 模式 判 准 率 ( 记 为 IMP)。 研 究 使 用 R 语 言 程序 , H 
编 计 算 机 代码 进行 模拟 研究 ， 每 种 实验 条 件 重复 
100 次 , 计算 各 次 实验 的 均值 作为 最 终结 果 。PMR 


my 


和 ME, 的 计算 如 下 : 
100 L 
(as =a) 
PMR = H= (5) 
Lx100 
ME,, = 
100 L L 
^ 2 ^ 2 
2: DiGi si /L+ 2 (05-9) /L (6) 
t=1 j=l j=l 
100x2 


若 修正 后 项 目 j 的 q 向 量 与 真实 q 问 量 完 全 一 
致 ， 则 指示 函数 1(qj = 95°) -1, 否则 I(qj = qj )= 
0, PMR, TPR 和 FPR 从 不 同方 面 反映 Q 和 矩阵 修 
正 结果 ， 值 越 高 ， 修 正 效果 越 好 ; ME. 代表 项 目 参 


数 返 真 性 ， 值 越 小 ,参数 估计 越 好 ; IMP 表示 被 试 
S 返 真 性 ， 值 越 高 ， 被 试 诊断 分 类 越 准 确 。 

3.4 结果 

X 5~8 ZHI LL ATH] KS 分 布 和 不 同 Q 矩阵 
错误 率 时 4 种 方法 在 所 有 实验 条 件 下 的 PMR. TPR 
和 FPR 值 , 表 中 加 粗 的 数据 是 相同 实验 条 件 下 的 最 
优 结 果 。 由 于 各 方法 修正 后 项 目 参 数 和 被 试 KS 的 
返 真 率 差异 不 大 , AS PMR, TPR 和 FPR 得 到 的 
结论 一 致 ， 为 行文 简洁 ,文中 未 呈现 ME, 和 IMP 
的 结果 。 如 有 需要 ， 可 联系 作者 。 
3.4.1 KS 服从 均匀 分 布 时 的 结果 

第 一 , 由 表 5 和 表 6 可 知 , ORDP 方法 在 绝 大 多 
数 实验 条 件 下 都 具有 最 高 PMR 和 TPR 值 ， 在 大 部 
分 条 件 下 具有 最 高 FPR 值 ， 接 下 来 依次 为 HD. 
RMSEA 和 R 方法 。4 种 方法 在 所 有 实验 条 件 下 的 
PMR, TPR 和 FPR 均值 从 高 到 低 依次 为 : ORDP 
(0.916; 0.990; 0.949), HD (0.914; 0.988; 0.950), 


R5 KS 服从 均匀 分 布 且 M = 20% 时 各 方法 在 不 同 实验 条 件 下 的 PMR、TPR $ü FPR 


IR Iq 


评价 层级 


N L-20 L-30 
指标 结构 


L-20 L-30 


ORDP 


R RMSEA HD ORDP R RMSEA HD ORDP R RMSEA HD ORDP R RMSEA HD 


300 0.933 0.830 0.893 0.930 0.976 0.908 0.969 
1000 0.937 0.897 0.918 0.935 0.991 0.968 0.981 


ži 


si 


0.971 0.735 0.590 0.732 0.733 0.864 0.738 0.861 0.862 
0.983 0.822 0.636 0.818 0.821 0.946 0.833 0.936 0.941 


PMR 


300 0.980 0.859 0.970 0.974 0.996 0.886 0.994 
1000 0.988 0.877 0.986 0.988 0.999 0.900 0.998 


0.994 0.949 0.805 0.944 0.946 0.972 0.821 0.971 0.972 


0.999 0.967 0.817 0.967 0.966 0.994 0.849 0.993 0.994 


300 0.982 0.876 0.975 0.977 0.996 0.897 0.995 
1000 0.990 0.894 0.983 0.990 0.998 0.920 0.996 


0.995 0.938 0.769 0.936 0.937 0.975 0.813 0.980 0.973 


0.997 0.961 0.813 0.963 0.961 0.985 0.840 0.987 0.984 


300 0.973 0.883 0.966 0.969 0.993 0.911 0.987 
1000 0.990 0.912 0.984 0.985 0.997 0.952 0.996 


0.991 0.916 0.756 0.907 0.911 0.955 0.799 0.958 0.955 


0.997 0.950 0.806 0.949 0.950 0.987 0.851 0.981 0.984 


300 0.991 0.964 0.986 0.988 0.997 0.981 0.998 
1000 0.994 0.979 0.992 0.992 0.999 0.993 0.999 


< 


独 


0.994 0.943 0.905 0.933 0.940 0.972 0.940 0.970 0.971 
0.999 0.968 0.918 0.961 0.961 0.993 0.966 0.992 0.991 


1000 0.999 0.980 0.999 0.999 1 0.983 1 
TPR 


300 0.998 0.974 0.990 0.995 0.999 0.979 0.998 


0.998 0.996 0.960 0.989 0.992 0.996 0.962 0.995 0.995 
1 0.999 0.966 0.996 0.997 1 0.969 1 0.999 


300 0.998 0.977 0.996 0.996 0.999 0.981 1 
1000 0.999 0.982 0.998 0.999 1 0.985 1 


0.999 0.993 0.956 0.989 0.991 0.996 0.963 0.997 0.996 
1 0.999 0.964 0.998 0.999 0.999 0.968 0.999 0.999 


300 0.996 0.978 0.996 0.996 0.999 0.981 0.998 


1000 0.998 0.981 0.999 0.998 1 0.991 1 


0.997 0.988 0.948 0.984 0.985 0.992 0.960 0.994 0.991 
1 0.996 0.963 0.995 0.996 0.999 0.970 0.998 0.999 


300 0.946 0.955 0.916 0.936 0.981 0.981 0.974 
1000 0.954 0.978 0.946 0.951 0.993 0.993 0.981 


0.979 0.787 0.847 0.803 0.790 0.826 0.910 0.908 0.825 
0.992 0.819 0.893 0.876 0.818 0.897 0.950 0.955 0.891 


FPR 


300 0.989 0.956 0.974 0.979 0.997 0.966 0.994 
1000 0.995 0.959 0.988 0.993 0.999 0.970 0.999 


0.996 0.955 0.932 0.952 0.950 0.976 0.948 0.978 0.976 
0.998 0.964 0.937 0.964 0.962 0.994 0.957 0.995 0.993 


300 0.988 0.966 0.984 0.983 0.997 0.972 0.996 
1000 0.994 0.968 0.987 0.990 0.999 0.981 0.996 


0.995 0.946 0.930 0.946 0.946 0.983 0.945 0.986 0.979 
0.996 0.958 0.948 0.960 0.958 0.988 0.959 0.988 0.988 


300 0.984 0.967 0.970 0.973 0.997 0.986 0.989 
1000 0.995 0.985 0.986 0.988 0.998 0.989 0.998 


0.994 0.936 0.930 0.932 0.933 0.971 0.952 0.971 0.970 
0.995 0.953 0.947 0.954 0.952 0.993 0.970 0.991 0.992 
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表 6 KS 服从 均匀 分 布 且 M = 40% 时 各 方法 在 不 同 实 验 条 件 下 的 PMR、TPR 和 FPR 
mi Iq 低 Iq 


N L-20 L-30 L-20 L-30 


ORDP R RMSEA HD ORDP R RMSEA HD ORDP R RMSEA HD ORDP R RMSEA HD 


PMR 


300 0.751 0.669 0.668 0.748 0.887 0.874 0.859 0.883 0.574 0.429 0.537 0.572 0.685 0.605 0.675 0.682 
1000 0.764 0.708 0.702 0.760 0.952 0.922 0.930 0.945 0.599 0.452 0.588 0.593 0.788 0.706 0.773 0.784 


300 0.928 0.787 0.910 0.924 0.972 0.836 0.969 0.970 0.839 0.733 0.833 0.838 0.919 0.761 0.912 0.914 
1000 0.949 0.823 0.921 0.939 0.984 0.847 0.983 0.980 0.878 0.751 0.856 0.871 0.966 0.792 0.959 0.961 


300 0.923 0.805 0.884 0.914 0.968 0.851 0.961 0.965 0.830 0.718 0.809 0.827 0.902 0.764 0.885 0.898 
1000 0.940 0.827 0.900 0.936 0.983 0.880 0.967 0.977 0.862 0.739 0.820 0.859 0.940 0.805 0.930 0.939 


300 0.897 0.806 0.874 0.892 0.968 0.885 0.968 0.964 0.799 0.673 0.781 0.794 0.895 0.765 0.893 0.895 
1000 0.927 0.844 0.887 0.925 0.986 0.924 0.972 0.986 0.826 0.718 0.818 0.826 0.945 0.809 0.944 0.944 


TPR 


300 0.970 0.931 0.955 0.963 0.991 0.976 0.990 0.991 0.909 0.856 0.904 0.905 0.948 0.914 0.945 0.946 
1000 0.973 0.939 0.968 0.970 0.996 0.985 0.995 0.995 0.927 0.867 0.930 0.919 0.972 0.937 0.971 0.971 


300 0.995 0.967 0.984 0.994 0.998 0.973 0.993 0.996 0.990 0.956 0.979 0.985 0.993 0.954 0.990 0.991 
1000 0.997 0.973 0.990 0.995 0.999 0.976 0.999 0.999 0.993 0.958 0.985 0.991 0.998 0.962 0.998 0.998 


300 0.993 0.969 0.982 0.984 0.997 0.976 0.995 0.994 0.985 0.952 0.969 0.980 0.991 0.958 0.985 0.990 
1000 0.994 0.974 0.991 0.992 0.999 0.982 0.999 0.999 0.991 0.957 0.980 0.988 0.998 0.968 0.995 0.995 


300 0.993 0.967 0.987 0.993 0.997 0.979 0.999 0.993 0.980 0.936 0.977 0.980 0.991 0.956 0.991 0.990 
1000 0.994 0.972 0.992 0.993 0.999 0.987 0.999 0.995 0.989 0.948 0.983 0.985 0.997 0.966 0.996 0.996 


FPR 


评价 
指标 


独立 


300 0.854 0.880 0.820 0.850 0.939 0.962 0.923 0.934 0.728 0.766 0.731 0.723 0.810 0.850 0.818 0.812 
1000 0.862 0.901 0.838 0.861 0.971 0.977 0.960 0.965 0.754 0.782 0.761 0.753 0.882 0.906 0.874 0.876 


300 0.970 0.933 0.948 0.962 0.988 0.956 0.985 0.983 0.910 0.911 0.899 0.908 0.957 0.929 0.950 0.955 
1000 0.978 0.950 0.957 0.973 0.994 0.960 0.991 0.994 0.933 0.919 0.912 0.929 0.983 0.940 0.977 0.979 


300 0.960 0.942 0.946 0.952 0.987 0.961 0.982 0.982 0.905 0.904 0.895 0.896 0.949 0.930 0.942 0.949 
1000 0.973 0.947 0.948 0.971 0.993 0.965 0.983 0.990 0.931 0.922 0.906 0.922 0.966 0.943 0.962 0.965 


层级 
结构 


300 0.947 0.940 0.932 0.940 0.987 0.971 0.982 0.982 0.885 0.898 0.875 0.885 0.944 0.935 0.943 0.942 
1000 0.964 0.956 0.938 0.960 0.993 0.987 0.985 0.989 0.903 0.917 0.892 0.896 0.969 0.950 0.969 0.968 


R7 KS 服从 多 元 正 态 分 布 且 M = 20% 时 各 方法 在 不 同 实验 条 件 下 的 PMR, TPR 和 FPR 
高 Iq 低 Iq 


N L=20 L = 30 L-20 L-30 


ORDP R RMSEA HD ORDP R RMSEA HD ORDP R RMSEA HD ORDP R RMSEA HD 


PMR 


独 


E 


300 0.909 0.643 0.874 0.894 0.961 0.703 0.941 0.956 0.724 0.491 0.713 0.716 0.843 0.615 0.795 0.836 
1000 0.951 0.763 0.910 0.948 0.987 0.815 0.966 0.980 0.819 0.552 0.811 0.814 0.937 0.737 0.930 0.931 


300 0.918 0.613 0.923 0.913 0.978 0.635 0.985 0.974 0.860 0.570 0.869 0.858 0.917 0.616 0.925 0.915 
1000 0.973 0.643 0.978 0.965 0.983 0.649 0.991 0.980 0.902 0.644 0.908 0.901 0.959 0.636 0.968 0.956 


Ac St 


300 0.918 0.608 0.927 0.919 0.955 0.639 0.965 0.953 0.863 0.590 0.870 0.860 0.898 0.626 0.905 0.896 
1000 0.926 0.638 0.931 0.924 0.973 0.681 0.982 0.974 0.885 0.633 0.891 0.882 0.948 0.665 0.953 0.942 


300 0.930 0.791 0.939 0.927 0.969 0.816 0.976 0.968 0.854 0.689 0.860 0.848 0.869 0.715 0.875 0.866 
1000 0.948 0.824 0.952 0.944 0.980 0.867 0.989 0.978 0.900 0.767 0.906 0.901 0.928 0.799 0.935 0.920 


TPR 


300 0.992 0.928 0.985 0.984 0.998 0.941 0.994 0.994 0.952 0.872 0.940 0.948 0.965 0.915 0.955 0.960 
1000 0.996 0.954 0.995 0.995 1 0.965 0.999 0.997 0.983 0.900 0.971 0.979 0.992 0.943 0.984 0.988 


300 0.990 0.898 0.980 0.984 0.996 0.904 0.999 0.996 0.977 0.862 0.980 0.973 0.984 0.875 0.990 0.982 
1000 0.998 0.922 0.999 0.995 0.998 0.916 1 0.998 0.992 0.888 0.996 0.990 0.991 0.896 0.998 0.993 


Ac SA 


300 0.986 0.904 0.987 0.985 0.991 0.912 0.995 0.990 0.975 0.890 0.982 0.974 0.979 0.902 0.988 0.976 
1000 0.991 0.927 0.988 0.988 0.997 0.928 1 0.998 0.984 0.910 0.991 0.982 0.989 0.917 0.997 0.985 
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续 表 
高 低 Iq 
评价 层级 N L=20 30 L L 
指标 结构 
ORDP R RMSEA HD ORDP R RMSEA HD ORDP R RMSEA HD ORDP R RMSEA HD 
pen 300 0.990 0.960 0.994 0.990 0.965 0.996 0.991 0.962 0.939 0.976 0.941 0.980 0.968 
1000 0.994 0.968 0.996 0.992 1 0.998 0.982 0.955 0.989 0.959 0.982 
. 300 0.932 0.872 0.912 0.925 0.962 0.968 0.766 0.753 0.878 0.841 0.876 
B 1000 0.954 0.925 0.922 0.946 0.971 0.988 0.839 0.814 0.965 0.912 0.960 
"T 300 0.945 0.855 0.950 0.942 0.989 0.986 0.879 0.824 0.935 0.844 0.932 
1000 0.977 0.871 0.981 0.976 0.991 0.987 0.901 0.843 0.965 0.859 0.964 
oe ied 300 0.951 0.878 0.955 0.947 0.978 0.967 0.876 0.821 0.930 0.861 0.925 
1000 0.953 0.880 0.961 0.955 0.982 0.976 0.899 0.849 0.949 0.863 0.936 
ae 300 0.935 0.937 0.941 0.933 0.988 0.978 0.888 0.878 0.925 0.911 0.917 
1000 0.966 0.950 0.972 0.958 0.990 0.980 0.920 0.922 0.947 0.941 0.937 
表 8 KS 服从 多 元 正 态 分 布 且 M = 40% 时 各 方法 在 不 同 实验 条 件 下 的 PMR, TPR 和 FPR 
e" 高 {fk Iq 
uu ae N L=20 30 L L 
ORDP R RMSEA HD ORDP R RMSEA HD ORDP R RMSEA HD ORDP R RMSEA HD 
~ 300 0.718 0.527 0.670 0.713 0.845 0.870 0.561 0.352 0.691 0.501 0.689 
um 1000 0.766 0.586 0.733 0.754 0.880 0.915 0.609 0.390 0.785 0.608 0.778 
"a 300 0.829 0.568 0.834 0.828 0.947 0.931 0.709 0.519 0.848 0.569 0.840 
1000 0.864 0.587 0.873 0.860 0.964 0.954 0.776 0.540 0.866 0.608 0.859 
TR p 300 0.844 0.543 0.853 0.839 0.924 0.911 0.710 0.525 0.840 0.556 0.837 
x 1000 0.859 0.586 0.863 0.859 0.958 0.950 0.763 0.541 0.855 0.600 0.851 
分 支 300 0.811 0.706 0.816 0.807 0.943 0.930 0.700 0.602 0.776 0.673 0.775 
1000 0.840 0.754 0.848 0.839 0.961 0.948 0.740 0.630 0.840 0.719 0.838 
ER 300 0.974 0.898 0.960 0.970 0.980 0.981 0.932 0.842 0.971 0.888 0.966 
Ma 1000 0.981 0.917 0.978 0.981 0.991 0.994 0.943 0.854 0.989 0.922 0.983 
直线 300 0.984 0.892 0.974 0.980 0.998 0.985 0.966 0.864 0.979 0.891 0.973 
1000 0.987 0.911 0.989 0.985 1 0.995 0.983 0.891 0.989 0.898 0.984 
s T 300 0.984 0.904 0.989 0.984 0.994 0.986 0.959 0.881 0.980 0.896 0.974 
1000 0.991 0.917 0.990 0.986 0.999 0.990 0.981 0.900 0.985 0.902 0.985 
" 300 0.983 0.950 0.989 0.982 0.995 0.988 0.964 0.933 0.969 0.941 0.965 
ae 1000 0.989 0.959 0.991 0.985 0.999 0.991 0.971 0.939 0.980 0.956 0.975 
es 300 0.834 0.816 0.808 0.829 0.925 0.941 0.717 0.688 0.804 0.784 0.800 
m 1000 0.878 0.843 0.842 0.870 0.936 0.962 0.738 0.700 0.871 0.838 0.865 
"a 300 0.920 0.841 0.922 0.913 0.973 0.965 0.850 0.796 0.918 0.834 0.911 
1000 0.925 0.844 0.938 0.922 0.981 0.971 0.862 0.801 0.935 0.839 0.933 
EER T 300 0.925 0.843 0.930 0.920 0.963 0.947 0.853 0.820 0.911 0.850 0.910 
1000 0.932 0.862 0.935 0.925 0.978 0.966 0.863 0.831 0.915 0.860 0.914 
A 300 0.900 0.888 0.906 0.894 0.976 0.960 0.820 0.818 0.889 0.880 0.881 
1000 0.917 0.894 0.919 0.915 0.980 0.969 0.855 0.842 0.913 0.903 0.913 


RMSEA (0.904; 0.986; 0.942) 和 R (0.803; 0.962; 
0.939). FAL n] Atl, ORDP 方法 在 Q 矩阵 修正 中 的 表 
现 明 显 优 于 RMSEA 和 R 方 法 ,略微 优 于 HD 方法 。 


另外 ,各 方法 的 TPR 均 高 于 FPR, | 


H 4 种 方法 对 于 


正确 属性 的 保留 率 均 在 95% 以 上 。 换 言 之 , 它们 对 
正确 属性 方面 的 保留 率 大 于 对 错误 属性 的 修正 率 。 
另外 ，ORDP 方法 对 于 错误 属性 的 修正 能 力 在 低 质 


量 项 目 中 更 易 受 属性 层级 


构 的 


Fi 
影响 。 
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第 二 ， 当 仅 变 化 N、L、M 或 Iq 时 可 知 : (1) N 
EK, LEK, MIRR Iq 越 高 时 , PMR, TPR, 
FPR 和 IMP 的 值 都 越 大 ，ME,, 的 值 越 小 , Q 矩阵 修 
正 效果 越 好 ; (2) 固定 N = 300 (1000) 时 , ORDP 77 
法 在 所 有 实验 条 件 下 PMR 均值 为 0.905 (0.930)。 
此 时 , PMR 均值 的 全 距 为 0.025。 同 理 ,， 固定 N= 300 
(1000) 时 , R, RMSEA 和 HD 方法 在 所 有 实验 条 件 
下 PMR 均值 的 全 距 分 别 为 0.038、0.029 和 0.029。 
类 似 的 ， 仅 固定 工 、M 或 到 时 ,各 方法 在 所 有 实验 
条 件 下 PMR 均值 的 全 距 分 别 记 为 ORDP (0.065; 
0.081; 0.073)、R (0.075; 0.075; 0.122)、RMSEA 
(0.078; 0.098; 0.064), HD (0.065; 0.083; 0.071)。 总 
Ik E, R fll RMSEA 方法 受 各 因素 影响 的 波动 最 大 ， 
ORDP 方法 的 波动 最 小 , HD 方法 的 波动 范围 居中 。 

第 三 , 属性 层级 结构 对 各 方法 修正 率 的 影响 。 
在 独立 、 直 线 、 收 敛 和 分 支 型 结构 下 ,4 种 方法 的 
PMR 均值 分 别 为 : ORDP (0.825, 0.955, 0.948, 
0.938), RMSEA (0.803, 0.948, 0.936, 0.929), R 
(0.735, 0.821, 0.826, 0.831), HD (0.821, 0.952, 0.946, 
0.936). TJ JIL, ORDP, RMSEA 和 HD 方法 在 各 层 
级 结构 下 表现 的 优 劣 依次 为 直线 、 收 但 、 分 支 和 独 
立 型 ; R 方法 除 独立 型 结构 下 的 结构 最 差 外 ， 其 它 
三 种 层级 结构 下 的 结果 无 明显 差异 。 

3.4.0 KS 服从 多 元 正 态 分 布 时 的 结果 

第 一 ， 由 表 7 和 表 8 可 知 ， 总 体 上 RMSEA 方 
法 的 PMR, TPR 和 FPR 值 均 最 高 ， 接 下 来 依次 为 
ORDP, HD fil R Wik. 4 种 方法 在 所 有 实验 条 件 下 
的 PMR TPR 和 FPR 均值 从 高 到 低 依次 为 :RMSEA 
(0.874; 0.985; 0.919), ORDP (0.864; 0.983; 0.915), 
HD (0.856; 0.980; 0.911) 和 R (0.639; 0.918; 0.865). 
由 此 可 知 ， 当 KS 服从 多 元 正 态 分 布 时 , RMSEA 7r 
法 的 表现 整体 稍 优 于 ORDP 方法 , 平均 PMR 差距 
在 0.01 以 内 。 此 外 ,所 有 方法 在 多 元 正 态 分 布下 的 
PMR 值 均 低 于 它们 在 均匀 分 布下 的 结果 ， 这 与 已 
有 人 研究 (Chiu, 2013; Wang et al., 2020; Wang, Song, 
et al., 2018) 的 结果 一 致 。 

第 二 , ERF N, L, M} Iq 条 件 下 : (1) 所 
有 方法 的 PMR、TPR 和 FPR 均 随 着 N, L 的 增加 、 
M 的 降低 或 Iq 的 提高 而 增 大 ; (2) ME N, L, M 
Iq 时 ,各 方法 在 所 有 实验 条 件 下 PMR 均值 的 全 距 
分 别 记 为 ORDP (0.040; 0.083; 0.104; 0.096), R 
(0.050; 0.064; 0.076; 0.073), RMSEA (0.042; 0.084; 
0.106; 0.093), HD (0.044; 0.086; 0.093; 0.106). 44 
Hk E, HD 方法 受 工 和 1 的 影响 较 大 ， 而 ORDP 和 


RMSEA 方法 则 更 易 受 M 的 影响 。 

第 三 , 4 种 方法 在 独立 、 直 线 、 收 人 鳅 和 分 支 型 结 
构 下 的 PMR 均值 分 别 为 : ORDP (0.816; 0.892; 
0.881; 0.873), RMSEA (0.788; 0.899; 0.889; 0.880)、 
R (0.603; 0.602; 0.602; 0.749), HD (0.810; 0.879; 
0.870; 0.866), PIL, ^4 KS 服从 多 元 正 态 分 布 时 ， 
独立 属性 结构 中 ORDP 的 表现 明显 优 于 RMSEA 方 
法 ,其 它 属性 结构 中 RMSEA 方法 的 表现 稍 优 于 
ORDP 方法 , R 方法 仍 在 所 有 结构 下 表现 最 差 。 此 
外 , ORDP, RMSEA fil HD 方法 在 各 层级 结构 下 表 
现 的 优 劣 仍然 为 直线 、 收 僵 、 分 支 和 独立 型 ， 这 与 
KS 服从 均匀 分 布 时 的 结果 一 致 。 


4 四 种 方法 在 分 数 减 法 数据 QE 
修正 中 的 应 用 


基于 Tatsuoka (1984) 分 数 减 法 数据 ,研究 二 运 
用 4 种 方法 对 专家 标定 的 Q 矩阵 进行 修正 ,该 测验 
包括 15 个 项 目 , 考察 5 个 属性 ， 一 共有 536 名 被 试 
的 作答 反应 。 初 始 Q 矩阵 如 表 9 中 的 0、1 所 示 。 
此 外 ,通过 原始 Q@ 和 矩 阵 和 各 方法 修正 后 Q@ 和 矩阵 的 相 
对 拟 合 指标 和 绝对 拟 合 指标 比较 不 同 Q 和 矩阵 的 模 
型 数据 拟 合 度 。 其 中 ， 相 对 拟 合 指 标 包 括 偏差 
(-2LogLikelihood，-2LL) 、 赤 池 信 息 准 则 (Akaike 
information criterion，AIC) 和 贝 叶 斯 信息 准则 (Bayesian 
information criterion, BIC)， 绝 对 拟 合 指标 包括 M, 、 
RMSEA 和 标准 均 方 根 残 差 (standardized root mean 
square residual, SRMSR) 统 计量 。 

X 9-10 分 别 是 各 种 方法 对 专家 界定 的 Q FEE 
的 修正 情况 和 模型 数据 拟 合 结果 。 由 表 9 可 知 : 
ORDP, R, RMSEA 和 HD 方法 分 别 调整 了 24, 32, 
5 和 1 个 属性 。ORDP 方法 未 调整 第 1、3、5、8、 
9 和 11 题 。 由 表 10 可 知 ， 只 有 ORDP 方法 修正 后 
的 Q@ 和 矩阵 的 相对 拟 合 指标 均 优 于 原始 Q 矩阵 的 值 。 
所 有 方法 修正 后 的 绝对 拟 合 指标 均 低 于 原始 Q XB 
阵 的 结果 ， 且 ORDP 方法 的 M, 和 RMSEA 值 最 低 。 
这 表明 采用 ORDP 方法 修正 后 的 Q 矩阵 与 模型 的 
拟 合 度 更 优 。 值 得 注意 的 是 ,各 方法 提出 的 修正 方 
案 应 作为 专家 修正 Q@ 和 矩阵 时 的 建议 , 研究 者 不 能 完 
全 依赖 数据 分 析 ， 而 忽视 对 项 目 特征 的 分 析 。 


5 ”结论 与 讨论 
结论 


Q 和 抑 阵 是 认 知 诊断 的 重要 组 成 部 分 。 它 通 党 由 
领域 专家 进行 标定 ， 具 有 一 定 主观 性 。 因 此 ， 开 发 
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#9  Tatsuoka 分 数 减法 数据 的 测验 O 矩阵 以 及 各 方法 对 属性 的 修正 情况 


Item A1 A2 A3 A4 A5 Item A1 A2 A3 A4 A5 
1 1 0^ O*A~ 0~ 0 9 1 0 1* 0 0 
2 1#* 1#* 1#* 1 0 10 1#* 0 1#* 1# 1* 
3 1* 0* 0^ 0 0 11 1* 0 1 0 0 
4 1#* 1#* 1#* 1#* 1 12 1#* 0 1#* 1 0 
5 0A 0 1 0 0 13 1#* 1#* 1#* 1 0 
6 1#* 1 1#* 1 0 14 1#* 1 1#* 1#* 1 
7 1#* T” 1#* 1 0 15 1#* 1% 1#* 1 0 
8 1 1* 0^ 0 0 


UE: A1~A5 分 别 表 示 : 运算 基础 、 化 简 ( 代 ) 分 数 、 从 分 数 中 


ORDP, R, RMSEA 和 HD 方法 调整 的 属性 。 


分 离 出 整数 、 借 位 和 化 整数 为 分 数 。“#”、“*”、“A 和 ”和 “~” 分 别 表示 


表 10 基于 4 种 方法 修正 后 O 矩阵 的 拟 合 指标 


相对 拟 合 指标 绝对 拟 合 指标 
Q FE M; 
-2LL AIC BIC RMSEA SRMSR 
M; df p 
Q original 6911.549 7033.550 7294.880 235.320 59 0.001 0.075 0.113 
Q ORDP 6844.310 6966.310 7227.640 178.526 59 0.001 0.062 0.094 
QR 6974.382 7096.380 7357.710 179.088 59 0.001 0.062 0.093 
Q RMSEA 6932.032 7054.030 7315.360 214.976 59 0.001 0.070 0.093 
Q HD 6904.563 7026.560 7287.890 196.354 59 0.001 0.066 0.090 


简单 高 效 的 Q IEE IED eT RIZ BEIC E 
究 议 题 , 具有 重要 实践 价值 。 本 研究 借鉴 基尼 系数 
的 定义 ， 构 造 了 预测 人 数 比例 分 布 的 基尼 系数 指标 ， 
并 通过 Monte Carlo 模拟 实验 和 基于 Tatsuoka (1984) 
的 分 数 减 法 数据 ， 验 证 和 比较 了 新 方法 与 R、RMSEA 
和 HD 方法 在 Q 和 矩阵 修正 中 的 表现 。 研 究 表明 : 

第 一 ， 对 项 目 qg 向 量 的 模式 判 准 率 、 正 确 属性 
的 保留 率 和 错误 属性 的 修正 率 而 言 ， 当 KS 服从 均 
匀 分 布 时 ，ORDP 方法 整体 上 最 优 ， 接 下 来 依次 是 
HD, RMSEA 和 RR 方法 。 当 KS 服从 多 元 正 态 分 布 
时 ，ORDP 方法 在 独立 层级 结构 下 最 优 ， 其它 层级 
结构 下 RMSEA 方法 稍 优 于 ORDP 方法 ; 第 二 , 各 
方法 在 KS 服从 多 元 正 态 分 布下 的 修正 效果 低 于 服 
从 均匀 分 布 时 的 结果 ; 第 三 , 被 试 人 数 、 测 验 长 度 、 
Q 和 矩阵 错误 率 、 项目 质量 和 属性 层级 结构 对 4 种 方 
法 Q 矩阵 修正 效果 均 有 明显 影响 。 一般 地 ， 人 数 越 
>. 测验 越 长 、Q 矩阵 错误 率 越 高 或 项 目 质量 越 低 ， 
各 方法 的 表现 越 差 。 其 中 ，ORDP 方法 受 被 试 人 数 
影响 较 小 , 在 小 样本 条 件 下 仍 有 较 高 的 修正 率 ; 第 
四 ， 基 于 实证 数据 的 研究 结果 表明 ，ORDP 方法 修 
正 后 的 Q 和 矩阵 与 数据 的 拟 合 度 最 高 。 
5.2 讨论 

研究 基于 模型 数据 拟 合 的 角度 比较 了 4 种 Q@ 算 


Pur 


阵 修正 方法 。 其 中 ，HD 和 R 方法 反映 了 观察 反应 
分 布 和 理想 反应 分 布 的 差异 ; RMSEA 方法 描述 了 
观察 反应 概率 分 布 和 预测 反应 概率 分 布 的 差异 ; 
ORDP 方 法则 刻画 了 每 类 被 试 依据 观察 反应 获得 的 
预测 人 数 比 例 分 布 的 一 致 性 。 除 HD 方法 不 运用 
CDM 属于 非 参数 数据 拟 合 方法 外 ， 其 它 三 种 方法 
都 是 基于 CDM 的 模型 数据 拟 合 方法 。 

模拟 研究 发 现 ，ORDP 和 RMSEA 方法 表现 的 
优 劣 会 因 知 识 状态 的 不 同 而 不 同 。 当 被 试 为 均匀 分 
布 时 ， 除 部 分 项 目 质量 低 、 测 验 较 长 的 条 件 外 ， 
ORDP 方法 的 表现 均 明 显 优 于 RMSEA 方法 。 而 当 
被 试 为 多 元 正 态 分 布 时 ，ORDP 方法 只 有 在 独立 型 
结构 下 的 修正 结果 优 于 RMSEA 方法 。 已 有 研究 也 
表明 , 不 同 Q 和 抑 阵 修正 方法 的 优 劣 会 随 知识 状 态 分 
布 的 不 同 而 改变 (Kang et al., 2019; Wang et al., 
2020; Wang, Song, et al., 2018). 

模拟 研究 还 借鉴 Kang 等 人 (2019) 的 方法 采用 
一 次 修正 的 方式 。 比 较 Yu 和 Cheng (2020) 和 本 研 
究 中 RR 方法 的 结果 ,可 知 相同 条 件 下 采用 循环 修正 
和 一 次 修正 的 结果 没有 太 大 差异 。 事 实 上 , 虽然 循 
环 修正 得 到 的 结果 更 稳定 、 更 稳健 , 但 是 循环 修正 
非常 费时 。 以 ORDP 方法 为 例 , 在 属性 层级 结构 为 
独立 型 ， 被 试 知 识 状态 为 均匀 分 布 , 工 = 20, N = 300, 


1006 心 理 


学 dk 


第 54 卷 


M = 2096, Iq~U [0.05, 0.25] 的 条 件 下 ， 循 环 修正 需 
要 147 s， 而 一 次 修正 仅 需 要 12 s。 此 外 ,循环 修正 
可 能 存在 前 后 两 次 修正 的 Q 矩阵 始终 不 相同 即 不 
收敛 的 情况 ( 汪 大 勋 等 , 2019)。 一 次 修正 虽然 能 
证 方法 之 间 比 较 的 基础 相同 有 旦 花费 时 间 短 , 但 今后 
还 有 待 深 入 比较 两 种 修正 方式 的 差异 。 

另外 , 本 研究 仅 基 于 DINA 模型 开展 实验 , S 
后 有 必要 基于 其 它 认 知 诊断 模型 考察 ORDP 方法 
的 表现 。 一 般 地 ， 项 目 参数 和 知识 状态 的 估计 精度 
5 Q 矩阵 估计 精度 相互 关联 。 于 是 ， 探 讨 如 何 校准 
项 目 参数 和 知识 状态 的 估计 误差 对 提高 Q AREE 
计 ( 修 正 ) 率 具有 重要 意义 。 此 外 ， 随 着 考试 形式 和 
评价 方式 的 多 样 化 , 单一 的 测验 条 件 已 不 能 适应 测 
验 需 要 。 因此， 未 来 研究 有 必要 针对 多 级 评分 ( 杭 丹 
Jj, 2020; 刘 芯 伶 , 2020; Ma & de la Torre, 2020; i 
大 勋 等 , 2020)、 多 解 题 策略 或 属性 多 级 等 复杂 测 
验 条 件 研究 Q 矩阵 估计 (修正 ) 方 法 。 最 后 ,探索 如 
何 将 Q 和 矩阵 估计 (修正 ) 方 法 运用 于 在 线 标定 中 ， 以 
及 联合 标定 Q 和 矩阵 和 项 目 参 数 ( 陈 平 , 辛 涛 ，2011; 
Chen et al., 2015; i£ x, 2019)， 都 是 今后 研究 的 
重要 方向 。 

AME, Q 矩阵 估计 (修正 ) 方 法 通过 数据 分 析 
获得 Q 和 矩阵， 是 一 种 量化 研究 ， 随 机 误差 和 方法 均 
会 影响 结果 。 专 家 分 析 作 为 一 种 质 性 研究 ， 易 受 主 
观 因 素 的 影响 。 因 此 ,今后 一 方面 可 以 将 专家 标定 
和 Q 矩阵 估计 (修正 ) 方 法 相 结合 ， 男 一 方面 可 以 先 
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A simple and effective new method of Q-matrix validation 


LI Jia, MAO Xiuzhen, WEI Jia 
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Abstract 

Cognitive diagnostic theory (CDT) can provide fine-grained and multidimensional process assessment 
results, which has important research and practical values. The Q-matrix that represents the relationship between 
items and attributes, is the basis of CDT. The accuracy of the Q-matrix is an important factor that affects the 
accuracy of items parameter estimation and participants' diagnosis. Therefore, it is of great significance to check 
the correctness of the Q-matrix or to validate it. A lot of studies have been carried out on the estimation or 
validation of Q-matrix, and a variety of methods have been proposed from different perspectives, each having 
their advantages and disadvantages. The methods based on model-data fit can provide rich test information 
without the need of complex parameter estimation and time-consuming and tedious calculation. Following this 
line of thinking, this study used Gini coefficient to express the purity of expected numbers proportion 
distribution, and constructed a simple and efficient Q-matrix validation method, called the optimization of 
response distribution purity (ORDP) method, which is suitable for both simplified model and saturated model. 

Residual index (R), root mean square error approximate (RMSEA) and hamming distance (HD) were 
compared to evaluate the performances with varied influencing factors, under the conditions of two different 
distribution of knowledge states (KS) (uniform distribution, multidimensional normal distribution), two different 
sample sizes (300, 1000), two different test lengths (20, 30), Q-matrix error rates (2096, 4096), item qualities 
([0.05, 0.25], [0.05, 0.24]) and attribute hierarchical structures (independent structure, linear structure, 
convergent structure, and branched structure). The specific algorithm of Q-matrix validation is as follows. 
Firstly, the initial Q-matrix is represented by Q^. When validating the first item j, the initial q-vector of item j in 
Q^ is replaced with one of all possible q-vectors, leaving the rest of the items intact. Then, the EM algorithm is 
used to estimate the item parameters and the knowledge states of the participants. Lastly, the q-vector that 
minimizes ORDP, R, RMSEA, or HD for the q-vector of the item is selected. 

Simulation results demonstrate that: (1) The distribution of KS affects the performance of each method. 
Specifically, when the KS is uniformly distributed, ORDP method is superior to other methods, HD method is 
the next, followed by RMSEA and R methods; When the KS follows multivariate normal distribution, there is no 
significant difference between RMSEA and ORDP. RMSEA method is slightly better than ORDP method except 
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independent structure，followed by HD and R method; (2) The validation effect of these methods under 
multivariate normal distribution is not as good as that under uniform distribution; (3) The validation rates of the 
four methods all affected by sample sizes, test lengths, Q-matrix error rates, item qualities and attribute 
hierarchical structures. If the smaller the number of respondents, the shorter the test length, the higher the 
Q-matrix error rates, or the lower the item quality, the worse the performance of each method will be, and vice 
versa; (4) The validation results based on the fractional subtraction data of Tatsuoka (1984) show that the 
Q-matrix modified by ORDP method has the best model-data fit. 

In this study, the ORDP index representing the purity of the expected numbers proportion distribution was 
constructed based on the Gini coefficient. Simulation and empirical studies show that this method has a high 
validation rate for Q-matrices under different conditions. On the whole, the new method proposed in this study 
validates the Q-matrix through data analysis, which can reduce the workload of experts and thus improve the 
correctness of the Q-matrix. 

Key words cognitive diagnosis, Q-matrix validation methods, ORDP method, DINA model 


